Existing Temporal Action Detection (TAD) methods typically take a pre-processing step in converting an input varying-length video into a fixed-length snippet representation sequence, before temporal boundary estimation and action classification. This pre-processing step would temporally downsample the video, reducing the inference resolution and hampering the detection performance in the original temporal resolution. In essence, this is due to a temporal quantization error introduced during the resolution downsampling and recovery. This could negatively impact the TAD performance, but is largely ignored by existing methods. To address this problem, in this work we introduce a novel model-agnostic post-processing method without model redesign and retraining. Specifically, we model the start and end points of action instances with a Gaussian distribution for enabling temporal boundary inference at a sub-snippet level. We further introduce an efficient Taylor-expansion based approximation, dubbed as Gaussian Approximated Post-processing (GAP). Extensive experiments demonstrate that our GAP can consistently improve a wide variety of pre-trained off-the-shelf TAD models on the challenging ActivityNet (+0.2% -0.7% in average mAP) and THUMOS (+0.2% -0.5% in average mAP) benchmarks. Such performance gains are already significant and highly comparable to those achieved by novel model designs. Also, GAP can be integrated with model training for further performance gain. Importantly, GAP enables lower temporal resolutions for more efficient inference, facilitating low-resource applications. The code will be available in https://github.com/sauradip/GAP
translated by 谷歌翻译
Few-shot (FS) and zero-shot (ZS) learning are two different approaches for scaling temporal action detection (TAD) to new classes. The former adapts a pretrained vision model to a new task represented by as few as a single video per class, whilst the latter requires no training examples by exploiting a semantic description of the new class. In this work, we introduce a new multi-modality few-shot (MMFS) TAD problem, which can be considered as a marriage of FS-TAD and ZS-TAD by leveraging few-shot support videos and new class names jointly. To tackle this problem, we further introduce a novel MUlti-modality PromPt mETa-learning (MUPPET) method. This is enabled by efficiently bridging pretrained vision and language models whilst maximally reusing already learned capacity. Concretely, we construct multi-modal prompts by mapping support videos into the textual token space of a vision-language model using a meta-learned adapter-equipped visual semantics tokenizer. To tackle large intra-class variation, we further design a query feature regulation scheme. Extensive experiments on ActivityNetv1.3 and THUMOS14 demonstrate that our MUPPET outperforms state-of-the-art alternative methods, often by a large margin. We also show that our MUPPET can be easily extended to tackle the few-shot object detection problem and again achieves the state-of-the-art performance on MS-COCO dataset. The code will be available in https://github.com/sauradip/MUPPET
translated by 谷歌翻译
大规模弱监督的产品检索是实际上有用但在计算上具有挑战性的问题。本文介绍了在第九届CVPR 2022的第九次透明视觉分类研讨会(FGVC9)举行的eBay视觉搜索挑战赛(Eproduct)的新颖解决方案。这项竞赛提出了两个挑战:(a)电子商务是一个非常好的挑战。 - 包含的领域,包括许多具有细微视觉差异的产品; (b)缺少用于模型训练的目标实例级标签,只有粗糙的类别标签和产品标签可用。为了克服这些障碍,我们通过一系列专用设计制定了强大的解决方案:(a)我们从产品头衔中挖掘了数千个伪属性,而不是直接使用文本培训数据,并将其用作多标签分类的基础真相。 (b)我们将几个强大的骨架与高级培训配方结合在一起,以进行更判别的表示。 (c)我们进一步介绍了许多后处理技术,包括美白,重新排列和模型集合以进行检索。通过达到71.53%的3月,我们的解决方案“涉及国王”在排行榜上获得了第二个职位。
translated by 谷歌翻译
现有的时间动作检测(TAD)方法依赖于大型培训数据,包括细分级注释,仅限于在推理期间单独识别先前看到的课程。为每类兴趣收集和注释一个大型培训集是昂贵的,因此无法计算。零射TAD(ZS-TAD)通过启用预训练的模型来识别任何看不见的动作类别来解决这一障碍。同时,ZS-TAD的调查大大降低,ZS-Tad也更具挑战性。受零摄像图像分类的成功的启发,我们旨在解决更复杂的TAD任务。一种直观的方法是将现成的建议探测器与剪辑样式分类集成。但是,由于顺序定位(例如,提案生成)和分类设计,它很容易进行定位误差传播。为了克服这个问题,在本文中,我们通过视觉提示(陈旧)提出了一种新型的零射击时间动作检测模型。这种新颖的设计通过破坏介于两者之间的错误传播途径来有效地消除了定位和分类之间的依赖性。我们进一步介绍了分类和定位之间的相互作用机制,以改善优化。对标准ZS-TAD视频基准测试的广泛实验表明,我们的陈旧的表现明显优于最先进的替代方案。此外,我们的模型还与最近的强大竞争对手相比,在受到监督的TAD上还能产生卓越的成果。 Stale的Pytorch实现可从https://github.com/sauradip/stale获得。
translated by 谷歌翻译
现有的时间动作检测(TAD)方法依赖于带有细分级注释的大量培训数据。因此,收集和注释这样的训练集非常昂贵且不可计入。半监督的TAD(SS-TAD)通过利用规模自由的未标记视频来减轻此问题。但是,SS-Tad也比有监督的TAD更具挑战性的问题,因此研究得多。先前的SS-TAD方法直接结合了现有的基于建议的TAD方法和SSL方法。由于它们的顺序定位(例如,提案生成)和分类设计,它们很容易出现误差传播。为了克服这一局限性,在这项工作中,我们提出了一种基于无建议的时间掩模(点)的新型半监督时间动作检测模型,并具有平行的定位(掩码生成)和分类体系结构。这种新颖的设计通过切断介于两者之间的错误传播途径来有效地消除了定位和分类之间的依赖性。我们进一步介绍了用于预测细化的分类和本地化之间的交互机制,以及用于自我监督模型预训练的新借口任务。对两个标准基准测试的广泛实验表明,我们的现场表现要优于最先进的替代方案,通常是很大的边距。 pytorch实施现场可在https://github.com/sauradip/spot上获得
translated by 谷歌翻译
现有的时间动作检测(TAD)方法依赖于每个视频产生大量的建议。这导致由于提案生成和/或主张行动实例评估以及最终的高计算成本而导致复杂的模型设计。在这项工作中,我们首次提出了一个带有全局分割掩码(TAG)的无建议的时间动作检测模型。我们的核心想法是以完整的视频长度共同学习每个操作实例的全局细分面具。标签模型与基于常规建议的方法有显着不同,通过关注全球时间表示学习,直接在没有建议的情况下直接检测本地起点和终点的行动点。此外,通过对TAD进行整体建模,而不是在单个建议级别上进行本地建模,标签需要更简单的模型体系结构,计算成本较低。广泛的实验表明,尽管设计更简单,但标签的表现优于现有的TAD方法,在两个基准上实现了新的最新性能。重要的是,训练的速度更快约20倍,推理效率更高。我们的标签的Pytorch实现可在https://github.com/sauradip/tags上获得。
translated by 谷歌翻译
我们提出了一种名为ACLNET的新型深度学习模型,用于从地面图像中分割云。ACLNET同时使用深神经网络和机器学习(ML)算法来提取互补功能。具体而言,它使用有效网络-B0作为骨干,“``trous tos blacial pyramid boming''(ASPP)在多个接受场上学习,并从图像中提取细节细节。ACLNET还使用K-均值聚类来更精确地提取云边界。ACLNET对白天和夜间图像都有效。它提供的错误率较低,较高的召回率和更高的F1得分比Art最先进的云分割模型。ACLNET的源代码可在此处获得:https://github.com/ckmvigil/aclnet。
translated by 谷歌翻译
随着半导体晶片的整合密度和设计的复杂性的增加,它们中缺陷的幅度和复杂性也在上升。由于对晶圆缺陷的手动检查是昂贵的,因此高度需要基于自动的人工智能(AI)计算机视觉方法。先前关于缺陷分析的作品具有多个局限性,例如准确性低以及对分类和分割的单独模型的需求。为了分析混合型缺陷,一些以前的作品需要为每种缺陷类型分别训练一个模型,这是不可估计的。在本文中,我们介绍了基于编码器架构的新型网络WafersegClassnet(WSCN)。 WSCN执行单个和混合型晶圆缺陷的同时分类和分割。 WSCN使用“共享编码器”进行分类和细分,允许训练WSCN端到端。我们使用N-PAIR对比度损失首先预处理编码器,然后使用BCE-DICE损失进行分割,并进行分类的分类横向损失。使用N-PAIR对比度损失有助于更好地嵌入晶圆图的潜在维度。 WSCN的模型大小仅为0.51MB,仅执行0.2m的拖鞋。因此,它比其他最先进的型号轻得多。同样,它仅需要150个时期才能收敛,而先前的工作需要4,000个时代。我们在具有38,015张图像的混合WM38数据集上评估了我们的模型。 WSCN的平均分类精度为98.2%,骰子系数为0.9999。我们是第一个在混合WM38数据集上显示分割结果的人。可以从https://github.com/ckmvigil/wafersegclassnet获得源代码。
translated by 谷歌翻译
在本文中,我们提出了一种新颖的自我监督方法,可以预测未来,未观察到的现实世界中的深度估计。这项工作是第一个探索自我监督的学习,以估计视频未来未观察到的框架的单眼深度。现有作品依靠大量带注释的样本来生成对看不见框架深度的概率预测。但是,由于需要大量注释的视频样本,因此这使它变得不现实。此外,案件的概率性质,其中一个过去可能会有多个未来结果通常会导致深度估计不正确。与以前的方法不同,我们将未观察到的框架的深度估计作为视图合成问题进行建模,该问题将看不见的视频框架的深度估计视为辅助任务,同时使用学识渊博的姿势将视图恢复回去。这种方法不仅具有成本效益 - 我们不使用任何基础真相深度进行培训(因此实用),而且不使用确定性(过去的框架映射到不久的将来)。为了解决此任务,我们首先开发了一个新颖的深度预测网络DEFNET,该深度通过预测潜在特征来估计未观察到的未来的深度。其次,我们开发了基于渠道注意的姿势估计网络,该网络估计未观察到的框架的姿势。使用这个学到的姿势,将估计的深度图重建回图像域,从而形成一个自我监督的解决方案。我们提出的方法在短期和中期预测环境中与最先进的替代方案相比,ABS REL度量的重大改善,在Kitti和CityScapes上标有标准。代码可从https://github.com/sauradip/depthforecasting获得
translated by 谷歌翻译
这项工作的目的是研究互补的特征,这些特征可以帮助典型的MEL频率经系系数(MFCC),以封闭,有限的set set Word识别为不同母亲说话的英语说话者。与源自语音信号的光谱能量的MFCC不同,提议的频率饮食(FCS)封装了语音光谱不同带的光谱中心,由MEL FILLEC BANK定义。观察到这些功能与MFCC结合使用,可提供英语单词识别的相对性能提高,尤其是在各种嘈杂条件下。两阶段的卷积神经网络(CNN)用于模拟用阿拉伯语,法语和西班牙口音说出的英语单词的特征。
translated by 谷歌翻译